Les adresses à polluposter sont généralement collectées par robot d'indexation.
Il s'agit généralement d'un navigateur web ou d'un robot d'indexation.
Le robot d'indexation utilisé par Internet Archive est Heritrix, un logiciel libre, programmé en Java.
Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web.
Par exemple un robot d'indexation permet à un moteur de recherche d'explorer le contenu des sites web.
S'appuyant sur le robot d'indexation Lucene, elle se veut la synthèse de Gallica et du prototype Europeana.
L'exploration ou crawl: le web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes.
Heritrix peut également être configuré pour stocker les fichiers dans un format de répertoire similaire au robot d'indexation Wget, qui nomme le répertoire et le fichier de chaque ressource d'après son URL.
Il s'agit d'un robot d'indexation qui parcourt l'ensemble des ressources du Web, et non plus seulement les pages affiliées à AdSense, afin de les indexer dans le moteur de recherche de Google.